볼록 최적화: 노름 근사의 기본 원리

표준 수트(행렬 $A$의 범위)를 고유한 체형을 가진 고객(벡터 $b$)에게 맞추려는 재봉사라고 상상해 보세요. 팔과 허리(계수 $x$)를 어떻게 조정하더라도 완벽한 피부에 밀착되는 착용감은 얻을 수 없습니다. 당신이 찾는 것은 '최선의' 타협점— 노름 근사 모든 단면에서 긴장이나 '잔여 오차'를 최소화하는 것입니다.

수학적 프레임워크

핵심 목표는 벡터 $x \in \mathbb{R}^n$를 찾아, 선형 조합 $Ax = x_1a_1 + \dots + x_na_n$가 $b$를 가장 잘 근사하게 만드는 것입니다. 이는 일반적으로 $b$를 회귀 변수(행렬 $A$의 열들)에 대한 회귀 (행렬 $A$의 열들)로 표현됩니다.

우리는 잔여 벡터 $r = Ax - b$에 주목합니다. 실제로는 과잉 결정 시스템 여기서 $m > n$입니다. 왜냐하면 $m = n$이고 $A$가 비특이일 경우 최적 해는 단순히 $A^{-1}b$이며, 오차는 0이 되기 때문입니다. 이는 최적화 문제에서는 당연한 사례입니다.

🎯 핵심 원칙

노름 근사 문제(6.1)는 볼록 문제 이며, 항상 해결 가능합니다. 목표값과 달성 가능한 부분공간 사이의 거리를 최소화하는 최적 해 $\hat{x}$는 항상 존재합니다.

표준 변형

오차의 '맛'(즉, 어떤 종류의 오차를 처벌하고 싶은지)에 따라 다른 노름을 선택합니다:

1. 최소 제곱법 ($\ell_2$ 노름)

가장 일반적인 방법입니다. 잔여 오차의 제곱합을 최소화합니다: $\|Ax - b\|_2^2$. 큰 이상치에 민감하지만, 정규 방정식을 통해 해석적 해를 제공합니다.

2. 체비셰프/최소-최대($\ell_\infty$ 노름)

최대 절댓값 잔여 오차 $\max_i |r_i|$를 최소화합니다. 모든 측정값이 엄격한 허용 오차 내에 있어야 하는 경우에 사용됩니다. 다음 선형 계획법(LP)으로 해결할 수 있습니다: 최대값 절댓값 잔여 오차 $\max_i |r_i|$입니다. 모든 측정값이 엄격한 허용 오차 내에 있어야 할 때 사용됩니다. 다음 선형 계획법(LP)으로 해결할 수 있습니다:

최소화: $t$
제약조건: $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

3. 절댓값 잔여 오차의 합($\ell_1$ 노름)

모든 잔여 오차의 절댓값의 합 $\sum |r_i|$를 최소화합니다. 오차를 제곱하지 않기 때문에 이상치에 강건합니다. 또한 선형 계획법으로도 해결할 수 있습니다:

최소화: $\mathbf{1}^T t$
제약조건: $-t \preceq Ax - b \preceq t$

추정 맥락

많은 공학 분야에서 진짜 상태 $x$는 노이즈에 의해 왜곡된다고 가정합니다: $y = Ax + v$. 우리의 목적은 추정값 $\hat{x} = \text{argmin}_z \|Az - y\|$를 찾는 것입니다. 노름을 선택함으로써, 우리는 노이즈 $v$의 통계적 분포에 대해 가정을 하고 있는 것입니다.

\text{최소화: } \|u - b\| \text{ 제약조건: } u \in \mathcal{A} \quad (\text{여기서 } \mathcal{A} = \text{Range}(A))

질문 1

노름 근사 맥락에서 왜 일반적으로 $m > n$를 가정하는가?

왜냐하면 $m = n$인 경우 해는 $x = A^{-1}b$와 같은 자명한 해이며 잔여 오차가 0이기 때문입니다.

문제가 비볼록 상태로 유지되도록 하기 위해입니다.

L1 노름이 해결되기 위해 제약 조건보다 더 많은 변수가 필요하기 때문입니다.

행렬 $A$가 항상 특이행렬임을 보장하기 위해입니다.

질문 2

다음 중 체비셰프(최소-최대) 근사 문제를 올바르게 나타내는 선형 프로그래밍(LP) 형태는 무엇입니까?

최소화: $t$ 제약조건: $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

최소화: $\mathbf{1}^T t$ 제약조건: $-t \preceq Ax - b \preceq t$

최소화: $\|Ax - b\|_2$ 제약조건: $x \succeq 0$

최소화: $t$ 제약조건: $Ax - b = t$

질문 3

센서를 교정하고 있으며, 한 번의 측정값도 모델에서 고정된 값 이상으로 벗어나지 않도록 보장하고자 합니다. 어떤 노름을 사용해야 하나요?

L∞(체비셰프)

L₁(절댓값 잔여 오차의 합)

L₂(최소 제곱법)

프로베니우스 노름

질문 4

노름 근사 문제(6.1)의 해 존재성에 관해 참인 것은 무엇입니까?

항상 해가 존재하며 볼록합니다.

행렬 $A$가 대칭일 때만 해가 존재합니다.

L1 노름을 사용할 경우 비볼록입니다.

시스템이 과잉 결정되었을 경우 해가 없습니다.

질문 5

표현식 $y = Ax + v$에서 $v$가 라플라스 노이즈(정규 노이즈보다 '두꺼운 꼬리'를 가짐)를 나타낸다면, 통계적으로 더 강건한 근사 노름은 무엇입니까?

L₁(절댓값 잔여 오차의 합)

L₂(최소 제곱법)

L∞(체비셰프)

L₀ 의사 노름